加速药物发现丨西湖大学李子青团队首创蛋白质动态结构AI建模方法
生命体中的蛋白质结构在不断变化。预测蛋白质结构的动态变化,对理解生命过程,研发新型药物都有着重要的意义。
西湖大学李子青团队与厦门大学、德睿智药合作,首创研发了能够刻画蛋白质构象变化与亲和力预测的AI模型ProtMD。这是第一个尝试解析蛋白质动态构象的AI方法,可辅助药物化学专家更加精准的筛选出高活性小分子,从而加速临床前药物研发。相关研究成果发表在Advanced Science。
原文链接:
https://onlinelibrary.wiley.com/doi/10.1002/advs.202203796
19世纪Fischer提出的锁钥学说认为,蛋白和小分子在结合过程中是刚体,并不会发生任何形变;而当今的生物学家早已放弃了这一论断,他们发现蛋白不仅会有形变,而且有随机的抖动和跳跃。
1965年诺贝尔物理学奖的获得者,理查德·费恩曼(Richard Feynman),曾做过一个很有名的论述:”如果一定要给一个最重要的假设,来帮助科学家们理解生命,那就是万物皆由原子构成,一切生命体可以理解成原子的跳跃和抖动。” 在他眼里,根据第一性原理,原子的运动是生命的起点。过去五十年的生物物理学都在致力于更好地理解原子运动的机理。
过去,科学家通过计算机模拟药物分子和靶点蛋白的相互作用,筛选出高靶点亲和力的药物分子,然而由于靶点蛋白的三维构象在不同生理环境下具有一定的随机性,因此直接使用靶点蛋白质的静态结构与分子对接,可能导致预测结果的严重偏差。
现在,DeepMind研发的AI方法AlphaFold2,能够准确预测蛋白质的三维结构,对结构生物学、药物设计、乃至整个科学界都产生了巨大影响。但AlphaFold2只能预测蛋白质在一个瞬间的静态结构,尚未能解决蛋白质结构动态变化的预测。
然而,预测蛋白质结构的动态变化,对理解生命过程、研发新型药物都有着重要的意义。尤其在AI药物设计中,通过对药物分子与靶点蛋白结合后的动态结构变化的预测,评估药物-靶点结合亲和力和药物效果,是提高AI药物筛选准确性和效能的重要思路。
李子青团队首创开发了预测蛋白质结构动态变化的AI模型ProtMD。给定药物分子和靶点蛋白,ProtMD预测药物分子与生物体内靶点蛋白质结合(柔性对接)后蛋白质结构的变化过程,推断药物与靶标蛋白结合的稳定性,预测药物功能,从而提升AI药物设计的精度和效率。
让我们来复盘一下李子青团队的动态构象研究方法,包括数据生成与AI建模两个环节。
(1) 用分子动力学生成蛋白质“跳动”的轨迹数据
过去,基于牛顿力学确定论的热力学计算方法,通过模拟分子体系的运动可以计算出蛋白质的动态序列,生成蛋白质“动”的数据。虽然该方法运算量巨大,耗时较长,但该方法所生成的数据,正好可以用于训练AI模型。
研究团队从蛋白质数据库PDB中共计57651个人类蛋白结构中,选取了具有代表性的数十个蛋白质结构,使用Molecule Dance(分子跳动)平台对这数十个蛋白质进行分子动力学模拟——团队采用对蛋白质动态结构 “抓拍”的序列,建立蛋白质动态构象的模型,就像人们用静态照片序列来形成动态视频一样,获得了数TB大小的蛋白质的空间运动轨迹,作为AI建模的依据。
(2) 用AI方法对蛋白质构象变化进行建模
解决思路是这样的:第一,算法需要能够基于上一时刻的蛋白的“样子”,预测下一时刻的蛋白变成什么样;第二,即使把时间顺序打乱,算法能够将根据蛋白质长的“样子”按照正确的时间顺序重新排序。
为实现这样的目标,研究团队在传统NLP和CV预训练方法的基础上,为ProtMD建模创新设计了两个对应的自监督学习任务。第一,要求ProtMD模型能够基于上一时刻的蛋白构象预测下一时刻的蛋白构象。第二,训练ProtMD模型对不同时刻蛋白质顺序的排序能力,使其能对时序被随机打乱的蛋白质构象进行排序。完成训练后,ProtMD即可预测药物分子与靶点蛋白结合后的构象变化,以评估药物效果(如下图)。
图. 构象变化轨迹建模(左框)和 模型用于药物分子亲和力预测和配体功效预测 (右框)
实验表明,ProtMD在药物-蛋白亲和力预测任务上,轻量级版本表现已超过现有的最优(SOTA)模型。在配体功效预测任务上,ProtMD 重量级版本AUPRC较SOTA模型提升14%。ProtMD的表现不仅说明该模型的能力,而且证明引入蛋白质时空动态信息,可显著提升药物亲和力预测准确性,辅助药物化学专家更加精准的筛选出高活性小分子。
这项研究是采用AI方法解析蛋白质动态构象迈出的第一步。李子青认为,传统的药物蛋白结合理论基于静态蛋白构象,而实际上蛋白构象在药物结合之前和之后是会发生变化的。ProtMD是预测蛋白-药物结合过程中动态构象的一个尝试,使得AI药物设计能够更准确地完成药物-蛋白亲和力预测这一核心任务,从而提升AI药物设计的有效性。德睿智药CEO 牛张明博士认为,ProtMD的研发为基于蛋白的机器学习预训练模型研发提供了新方向。该方法在底层原理上实现了突破,在实验预测精度上超过“同类最优”,证明了蛋白质动态时空信息在蛋白-小分子亲和力预测上的重要性。ProtMD的工业级版本可大幅提高药物亲和力预测与虚拟筛选效率。
西湖大学李子青实验室科研助理吴方、厦门大学博士生金淑婷、德睿智药AIDD总监江荧辉为本文共同第一作者,西湖大学AI讲席教授李子青(Stan Z. Li)为本文通讯作者。本项目得到了国家科技部“新一代人工智能”重大项目和国家自然科学基金重点项目的支持。
西湖大学聚焦基础前沿科学研究,致力尖端科技突破,注重学科交叉融合,努力实现原始创新和科技成果转化的重大突破。深耕AI领域的李子青,2019年加入西湖大学,取得了多项AI+交叉学科研究成果:与郭天南实验室合作,创新基于AI的蛋白质生物标志物发现及其临床诊断应用[1][2],成果已产业化;与李凌实验合作,创新了AI天气预测新方法[3];在AI蛋白质序列设计的精度和速度上也取得了目前最好的性能[4]。
References
[1] Sun, Yaoting, et al. "Artificial intelligence defines protein-based classification of thyroid nodules." Cell discovery 8.1 (2022): 1-17.
[2] Zhang, Fangfei, et al. "Phenotype classification using proteome data in a data-independent acquisition tensor format." Journal of the American Society for Mass Spectrometry 31.11 (2020): 2296-2304.
[3] Lin, Haitao, et al. "Conditional local convolution for spatio-temporal meteorological forecasting." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 36. No. 7. 2022.
[4] Gao, Zhangyang, Cheng Tan, and Stan Z. Li. "PiFold: Toward effective and efficient protein inverse folding." arXiv e-prints 2022: https://arxiv.org/abs/2209.12643.
来源/李子青实验室
编辑/徐 珊
校对/沈 是